学习优化是一个快速增长的领域,旨在使用机器学习(ML)来解决优化问题或改善现有的优化算法。特别是,图形神经网络(GNN)被认为是用于优化问题的合适ML模型,其变量和约束是置换的 - 例如线性程序(LP)。尽管文献报道了令人鼓舞的数值结果,但本文确定了将GNN应用于解决LP的理论基础。给定LPS的任何尺寸限制,我们构造了一个GNN,该GNN将不同的LP映射到不同的输出。我们表明,正确构建的GNN可以可靠地预测广泛类别中每个LP的可行性,界限和最佳解决方案。我们的证明是基于最近发现的Weisfeiler-Lehman同构测试与GNN之间的联系。为了验证我们的结果,我们培训了一个简单的GNN,并提出了将LP映射到其可行性和解决方案中的准确性。
translated by 谷歌翻译
我们提出了一种新颖的框架,将3D运动重定定义任务从受控环境带到野外的场景。特别地,我们的方法能够从2D单眼视频中的字符重新靶出到3D字符,而不使用任何运动捕获系统或3D重构过程。它旨在利用巨大的在线视频,用于无监督培训,不用的3D注释或运动身体配对信息。所提出的方法是基于两种新颖的规范化操作,结构规范化和观察规范化。我们的方法训练了Canonicalization操作和派生规范化,我们的方法学会将骨架序列分解为三个独立的语义子空间,即运动,结构和视角。解散的表示使从2D到3D的运动重新定位,具有高精度。我们的方法在运动转移基准上实现了卓越的性能,具有大的身体变化和具有挑战性的动作。值得注意的是,规范化的骨架序列可以用作人类运动的解除戒备和可解释的表示,这些人的运动会受益于行动分析和运动检索。
translated by 谷歌翻译
基于神经网络的高维部分微分方程(PDE)的数值解具有令人兴奋的发展。本文推出了Barron空间中$ -dimimensional二阶椭圆PDE的解决方案的复杂性估计,这是一组函数,即承认某些参数脊函数的积分与参数上的概率测量。我们证明在一些适当的假设中,如果椭圆PDE的系数和源期限位于Barron空间中,则PDE的解决方案是$ \ epsilon $ -close关于$ h ^ 1 $ norm到Barron功能。此外,我们证明了这种近似解决方案的Barron标准的维度显式范围,这取决于大多数多项式在PDE的维度$ D $上。作为复杂性估计的直接后果,通过双层神经网络,PDE的解决方案可以通过双层神经网络在任何有界面的神经网络上近似于尺寸显式收敛速度的$ H ^ 1 $常态。
translated by 谷歌翻译
由于行动和状态空间的连续性,策略的多模式,环境中的障碍的存在以及对其他代理的瞬时适应需要,因此协作式携带是一项复杂的任务。在这项工作中,我们提出了一种预测合作人类手机团队的现实运动计划的方法。使用变性复发性神经网络VRNN来对人类机器人团队的轨迹进行建模,随着时间的流逝,我们能够捕获团队未来状态的分布,同时利用交互历史的信息。我们方法的关键是我们模型利用人类示范数据并产生在测试期间与人协同良好的轨迹的能力。我们表明,与基线,基于集中抽样的计划者快速探索的随机树(RRT)相比,该模型会产生更多类似人类的运动。此外,我们通过人类合作伙伴评估了VRNN规划师,并显示出比RRT在与人类计划时能够产生更类似人类的路径并获得更高的任务成功率的能力。最后,我们证明了使用VRNN规划师使用的Lotobot可以通过控制另一个Locot的人来成功完成任务。
translated by 谷歌翻译
基于变压器的视觉对象跟踪已广泛使用。但是,变压器结构缺乏足够的电感偏差。此外,仅专注于编码全局功能会损害建模本地细节,这限制了航空机器人中跟踪的能力。具体而言,通过局部模型为全球搜索机制,提出的跟踪器将全局编码器替换为新型的局部识别编码器。在使用的编码器中,仔细设计了局部识别的关注和局部元素校正网络,以减少全局冗余信息干扰和增加局部归纳偏见。同时,后者可以通过详细信息网络准确地在空中视图下对本地对象详细信息进行建模。所提出的方法在几种权威的空中基准中实现了竞争精度和鲁棒性,总共有316个序列。拟议的跟踪器的实用性和效率已通过现实世界测试得到了验证。
translated by 谷歌翻译
炎症性肠病(IBD),尤其是溃疡性结肠炎(UC),由内镜医生分级,该评估是风险分层和治疗监测的基础。目前,内窥镜表征在很大程度上取决于操作员,导致IBD患者有时不良的临床结果。我们专注于广泛使用但需要可靠地鉴定粘膜炎症变化的蛋黄酱内窥镜评分(MES)系统。大多数现有的深度学习分类方法无法检测到这些细粒度的变化,从而使UC的分级成为一项具有挑战性的任务。在这项工作中,我们介绍了一个新颖的贴片级实例组歧视,并使用借口 - 不变的表示学习(PLD-pirl)进行自我监督学习(SSL)。我们的实验表明,与基线监督网络和几种最先进的SSL方法相比,准确性和鲁棒性提高了。与基线(RESNET50)监督分类相比,我们提出的PLD-pirl在Hold-Out测试数据中获得了4.75%的改善,而在看不见的中心测试数据中获得了6.64%的速度,以获得TOP-1的准确性。
translated by 谷歌翻译
机器人在仓库和工厂等受控环境中执行重复和精确的敏感任务方面表现出色,但尚未扩展到体现在家庭任务中提供帮助的AI代理。受到基准在AI领域(例如计算机视觉和自然语言处理)中的催化效果的启发,社区正在寻找用于体现AI的新基准。体现AI基准的先前工作使用不同的形式主义定义任务,通常特定于一个环境,模拟器或域,从而难以开发一般和可比较的解决方案。在这项工作中,我们将一部分行为活动带入了栖息地2.0中,以从其快速模拟速度中受益,这是证明逻辑空间中定义的适应活动的第一步,将其定义为不同的模拟器。
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
变性自动编码器(VAE)是一种有效的神经网络体系结构,可以将语音发言性解散到扬声器身份和语言内容潜在的嵌入式中,然后为目标发言人与源扬声器的语音产生话语。通过将目标扬声器的身份嵌入以及源说明句子的源头嵌入,这是可能的。在这项工作中,我们建议通过自我注意和结构正则化(RGSM)改善VAE模型。具体而言,我们发现了VAE的解码器的合适位置,以添加一个自我发言层,以将非本地信息纳入产生转换的话语并隐藏源说话者的身份。我们应用了放松的小组分裂方法(RGSM)来正规化网络权重并显着提高泛化性能。在VCTK数据集的零射击的零射击实验中,具有自我发项层和放松的小组分裂方法,我们的模型可在未看到的扬声器上获得28.3 \%的扬声器分类准确性,而同时达到28.3 \%就MOSNET分数而言,转化语音质量略有改善。我们令人鼓舞的发现表明,未来的研究将在VAE框架中整合更多各种注意力结构,同时控制模型大小和过度拟合,以推动零射击多次播放的语音转换。
translated by 谷歌翻译
能够重现从光相互作用到接触力学的物理现象,模拟器在越来越多的应用程序域变得越来越有用,而现实世界中的相互作用或标记数据很难获得。尽管最近取得了进展,但仍需要大量的人为努力来配置模拟器以准确地再现现实世界的行为。我们介绍了一条管道,将反向渲染与可区分的模拟相结合,从而从深度或RGB视频中创建数字双铰接式机制。我们的方法自动发现关节类型并估算其运动学参数,而整体机制的动态特性则调整为实现物理准确的模拟。正如我们在模拟系统上所证明的那样,在我们的派生模拟传输中优化的控制策略成功地回到了原始系统。此外,我们的方法准确地重建了由机器人操纵的铰接机制的运动学树,以及现实世界中耦合的摆机制的高度非线性动力学。网站:https://Eric-heiden.github.io/video2sim
translated by 谷歌翻译